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Resume 

Des travaux recents visent Toptimisation des operations de communication collective dans les envi- 
ronnements de t 5 rpe grille de calcul. La solution la plus repandue est la separation des communica¬ 
tions internes et extemes a chaque grappe, mais cela n'exclut pas le decoupage des communications en 
plusieurs couches, pratique efficace demontree par Karonis et al. ITOl . Dans les deux cas, la prediction 
des performances est un facteur essentiel, soit pour le reglage fin des paramefres de communication, 
soif pour le calcul de la disfribufion ef de la bier archie des communicafions. Pour cela, il esf fres impor- 
fanf d'avoir des modeles precis des communicafions collectives, lesquels seronf utilises pour predire ces 
performances. Gef arficle decrif nofre experience sur la modelisafion des operations de communication 
collective. Nous presenfons des modeles de communication pour differenfs pafrons de communication 
collective comme « un vers plusieurs »,« un vers plusieurs personnalise » ef« plusieurs vers plusieurs ». 
Pour evaluer la precision des modeles, nous comparons les predictions obfenues avec les resulfafs des 
experimenfafions effecfuees sur deux environnemenfs reseaux differenfs, Pasf Efhernef ef Myrinef. 

Mots-cles : Communicafion Collective, Modeles de Communication, Prediction de Performance, MPI 


1. Introduction 

Plusieurs travaux recents visent Timplantation des operations de communication collective adaptees 
aux systemes a grande echelle, notamment les grilles. Dans ces environnements, Theterogeneite est un 
facteur preponderant qui doit obligatoirement etre pris en compte 0. Cette heterogeneity represente, 
neanmoins, un vrai defi pour la prediction des performances, car les facfeurs qui influencenf les com¬ 
municafions onf des origines fres variees, comme la disfribufion des processus (par exemple, sur une 
grappe de machines mulfiprocesseurs), la disfance enfre les machines ef/ou les grappes, le faux d'ufili- 
safion du maferiel (surfouf la congestion du reseau) ef la variation de performance du maferiel. En effef, 
fres souvenf les grilles de calcul combinenf differenfes machines ef reseaux. 

L'heferogeneife inherenfe a ces envirormemenfs, associee a la volafilife des noeuds dans les grilles de 
calcul, empeche la creation d'operafions specifiques pour ces envirormemenfs, comme en affesfenf jSj 
ef 11251 . Pour simplifier ceffe modelisafion, la pluparf des solutions considerenf les grilles comme Tin- 
fercormexion d'ilofs de grappes homogenes (21 . Dans ce confexfe, la majorife des sysfemes concenfre 
Toptimisation au niveau des communicafions enfre les grappes, puisque ces liaisons sonf generalemenf 
plus lenfes que celles inferieures a la grappe. Quelques exemples de ceffe approche en deux couches 
incluenf les bibliofheques ECO 1201 , MagPIe 11211141 . ef meme la bibliofheque LAM-MPI7 II 71 . qui con- 
sidere les machines SMP comme des ilofs de communicafion rapide. II resfe, neanmoins, la necessife 
de regler les paramefres de communicafion pour avoir des performances opfimales, ef pour cela, la 
prediction des performances a fravers des modeles de communicafions esf un choix fres avanfageux. 

II exisfe, foufefois, la possibilife d'organiser les communicafions en un plus grand nombre de couches. 
En effef, le fravail de Karonis ef al. HQiiini a demonfre que le decoupage en plusieurs couches de com- 
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munication peut conduire a des reductions du temps d'execution plus importantes qu'un decoupage en 
deux couches, mais pour cela, il est necessaire la cormaissance a priori du cout de communication interne 
a chaque grappe. Dans ce cas, le calcul de la distribution et de la hierarchie des communications depend 
des temps de communication a I'interieur des grappes, qui varient selon I'operation de communication 
collective, le nombre de noeuds et les caracteristiques du reseau de chaque grappe. 

D'autre part, la prediction des performances des operations collectives est aussi interessante pour d'autres 
envirormements que les grilles. En fait, meme si on dispose d'une seule grappe, I'ordre d'execution des 
taches peut influencer largement la performance des sysfemes. Dans ces cas, des fravaux comme 1211 
s'inferessenf a la predicfion du femps d'execufion d'une fache, ef pour cela, la cormaissance des perfor¬ 
mances de communicafion represenfe une efape fres imporfanfe. 

L'approche choisie pour ce fravail esf la predicfion des performances a parfir de la modelisafion des 
operations de communicafion collective, par opposition aux predicfions fondees sur des experimenfa- 
fions reelles (voir Vadhiyar et al. 1281 1. Nofre choix s'appuie sur le fail que les predicfions obfenues a 
parfir des modeles de communicafion onf un couf fres reduif par rapporf aux experimenfafions reelles, 
sans pour aufanf perdre en precision. En effef, le fravail de Vadhiyar s'orienfe mainfenanf vers la mod¬ 
elisafion des performances pour reduire le couf frop eleve des mesures pratiques 1^ . 

Pour illusfrer nofre approche, ce fravail presenfe des experiences avec les operations Broadcast, Scat¬ 
ter ef All-to-All, lesquelles represenfenf respecfivemenf les pafrons de communications collectives « un 
vers plusieurs » {one-to-many), « un vers plusieurs persormalise » {personalised one-to-many) ef« plusieurs 
vers plusieurs » {many-to-many). Concepfuellemenf simple, les pafrons « un vers plusieurs » ef« un vers 
plusieurs persormalise » sonf aussi presenfs sur d'aufres operations comme Barriers, Reduces ef Gathers. 
En revanche, le pafron « plusieurs vers plusieurs »esf beaucoup plus complexe parce qu'une operation 
comme All-to-All esf sujeffe a des imporfanfs problemes de congesfion reseau. 

Cef article presenfe nofre experience dans la consfrucfion de modeles de performance qui caracferisenf 
ces pafrons de communicafion collective fres represenfafifs. Ces modeles sonf ufilises pour predire 
la performance des operafions, mais aussi pour choisir la fechnique d'implanfafion qui esf la mieux 
adapfee a chaque ensemble de paramefres (nombre de processus, faille des messages, performances du 
reseau). Pour mieux demonfrer I'efficacife de ces modeles, nous avons execufe des experimenfafions sur 
deux envirormemenfs reseau differenfs, Easf Efhemef ef Myrinef. 

La suife de cef article esf organisee de la fagon suivanfe : la Section |2lpresenfe les definitions qui seronf 
ufilisees dans cef arficle, ainsi que I'envirormemenf de fesf. Les Sections |3 IH et presentent respec- 
tivement les modeles de communication developpes pour les operations Broadcast, Scatter et All-to-All, 
et aussi comparent les predictions des modeles avec les resultats obtenus a partir de nos experiences. 
Einalement, la Section|3presente les conclusions et les perspectives futures de notre recherche. 

2. Modeles et Definitions 

Pour creer des modeles precis de communications collectives, il est souhaitable d'avoir un bon modele 
de performance pour represenfer les communications bipoinfs. Dans le domaine des applicafions paral- 
leles avec echange de message, les modeles les plus ufilises sonf BSP l30l ef LogP jSl. Meme si ces deux 
modeles sonf equivalenfs dans la pluparf des cas, LogP esf legeremenf plus general que BSP puisqu'il 
n'a pas besoin de barrieres globales qui separenf les phases de communicafion ef calcul, mais aussi parce 
que LogP confienf la notion de reseau de capacife finie, ou seulemenf un cerfain nombre de messages 
en fransif sonf supporfes simulfanemenf 1241 . Comme consequence, nous avons choisi pour ce fravail 
le modele parameterised LogP (pLogP) ITII . Le modele pLogP esf une exfension du modele LogP qui peuf 
frailer avec precision les pefifs comme les grands messages, avec un minimum de complexife. A cause de 
ceffe simplicife, ce modele permef un profof 5 q)age rapide des operafions de communicafion collective, 
ef les modeles developpes avec pLogP onf permis la predicfion des performances des communications 
avec une precision suffisanfe dans la pluparf des cas presenfes. 

Par consequenf, la ferminologie employee dans cef arficle utilise g(ni) pour represenfer le couf d'envoi 
d'un message de faille m (le gap), os(m) ef or(in) pour represenfer respecfivemenf le surcouf du a I'envoi 
ef a la reception d'un message de faille m, L pour represenfer la lafence enfre deux noeuds, ef P pour 
represenfer le nombre de noeuds. Dans les cas ou il y a segmenfafion des messages, le segmenf de faille 
s d'un message m esf un mulfiple de la faille du t 5 rpe basique de dormees qui esf fransmis, divisanf alors 
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Parametres pLogP Send-Recv Ethernet Parainetres pLogP Send-Recv Myrinet 



(a) Fast Ethernet (b) Myrinet 

Fig. 1 - Parametres pLogP pour le reseau icluster-2 


le message initial m en k segments. Similairement, g(s) represente le gap d'un segment de taille s. Ces 
parametres furent obtenus avec I'outil MPI LogP Benchmark 1131 , et sont presentes sur la Figure^] 

Les experimentation pratiques ont ete conduites sur la grappe icluster-2 au centre de calcul de I'INRIA 
Rhone-Alpes^. Cette grappe contient 104 ordinateurs Itanium-2 (IA-64, biprocesseur, 900MHz, 3GB) in- 
terconnectes pour des reseaux Fast Ethernet commute et Myrinet. Le systeme d'exploitation est Red Hat 
Linux Advanced Server 3.0 avec le noyau version 2.4.21smp. Les experimentations utilisent la biblio- 
theque LAM-MPI 7.0.4 1171 et consistent en 100 mesures pour chaque ensemble de parametres (taille du 
message, numero de processus), dont la valeur moyenne est consideree dans cet article. 

Les prochaines sections detaillent les modeles de communication developpes pour les patrons de com¬ 
munication « un vers plusieurs », « un vers plusieurs personnalise » et« plusieurs vers plusieurs », ainsi 
que la validation de ces modeles a partir des experimentations pratiques. 

3. Un vers Plusieurs : Broadcast 

Une operation de Broadcast s'effectue quand un seul processus, appele racine, envoie le meme message 
de taille m a tous les autres (P — 1) processus. Des implantations classiques du Broadcast utilisent des 
arbres qui sont decrits par deux parametres, d et h, ou d est le nombre maximum de successeurs qu'un 
noeud peut avoir, et h est la hauteur de cet arbre, le chemin le plus long qui relie la racine et les feuilles 
de cet arbre. Un arbre optimal peut etre construit a partir des parametres du reseau et avec d, h G[1...P-1] 
tel que > P est respecte, mais la plupart des implantations MPI utilisent deux formes fixes, un 

Arbre Plaf pour un nombre reduif de noeuds (jusqu'a 3 noeuds), ef un Arbre Binomial pour un plus 
grand nombre de noeuds. 

En plus de ces deux formes d'arbres, differenfes fechniques sonf parfois appliquees pour augmenfer leur 
efficacife. Ces fechniques peuvenf s'appliquer, pour exemple, a des grands messages, ou un message de 
rendez-vous esf envoye pour preparer le recepfeur afin de diminuer les copies memoires. On peuf aussi 
ufiliser des primitives de communicafion non bloquanfes pour permeffre le recouvremenf des commu¬ 
nications ef du calcul. Malheureusemenf, ces fechniques permeffenf jusfe des pefifes ameliorations, ef la 
performance des communications resfe neamnoins liee aux caracferisfiques du reseau. 

Une aufre possibilife de consfruire un Broadcast esf la composition des chaines de refransmission j2|. 
Ceffe sfrafegie, ufilisee avec la segmenfafion des messages, presenfe des avanfages imporfanfs, comme 
I'indiquenf 11411271 911. Dans un Broadcast a Chaine Segmenfee, la fransmission des messages en seg- 
menfs permef le recouvremenf de la fransmission d'un segmenf k ef la reception du segmenf k+1, min- 
imisanf le gap. 

Le choix de la faille des segmenfs resfe, neamnoins, dependanf des caracferisfiques du reseau. En faif, 
le couf des segmenfs frop pefifs esf plus du a I'en-fefe qu'a son confenu, ef a I'inverse, des segmenfs 


2 

http ://i-cluster2.mrialpes.fr/ 

































RENPAR'15 / CFSE'3 / SympAAA'2003 
La Colie sur Loup, France, 15 au 17 octobre 2003 


Strategie 

Modele de Communication 

Arbre Plat 

(P - 1) X s(m) + L 

Arbre Plat Rendez-vous 

(P - 1) X g(m) + 2 X g(l) + 3 X L 

Arbre Plat Segments 

(P - 1) X (g(s) X k) + L 

Chaine 

(P - 1) X (3(m) + L) 

Chaine Rendez-vous 

(P - 1) X (g(m) + 2 X g(l) + 3 X U) 

Chaine Segmentee (Pipeline) 

(P - 1) X (s(3) + L) + (g(3) X (fc - 1)) 

Arbre Binaire 

< llog2P^ X (2 X g(Tn) -|- L) 

Arbre Binomial 

llog 2 P} X gCm) + {log 2 P] X L 

Arbre Binomial Rendez-vous 

Liog2PJ X g(m)-|- 

riog2Pl X (2 X g(l) +3x1/) 

Arbre Binomial Segments 

llog2P} X g(s) X fc + [^092-^1 X ^ 


Tab. 1 - Modeles de communication pour le Broadcast 


trop grands ne sont pas capables d'exploiter tout le debit du reseau. La recherche de la taille de seg¬ 
ment s qui minimise le temps de communication pent se faire en utilisant les modeles presentes dans le 
Tableau^ D'abord, on cherche une taille de segment s qui minimise le temps de communication parmi 
s = m/2® pour i G [0.. .Iog 2 m]. Ensuite, on pent affiner la recherche de la taille optimale avec des 
heuristiques comme le « local hill-climbing » proposee pour Kielmarm et al. 11131 . 

Nous avons etabli plusieurs modeles pour representer les strategies de communication et leurs tech¬ 
niques associees, qui sont presentees sur le Tableau Q] La majorite de ces modeles sont clairement in- 
efficaces, done nous avons choisi pour cet article les strategies d'Arbre Binomial et Chaine Segmentee. 
Ces strategies seront analysees en Section I3d1 ou seront comparees les predictions des modeles avec les 
resultats issus des experimentations pratiques. 

3.1. Resultats Pratiques 

Pour evaluer la precision des modeles de communication, nous avons obtenu les temps de communica¬ 
tion des Broadcasts en Arbre Binomial et Chaine Segmentee a partir des experiences pratiques, et ensuite 
on les a compares avec les predictions des modeles. Les Figures |3et|^presentent chaque strategie com- 
paree avec les predictions de son modele. 

Les predictions pour les Arbres Binomiaux (Figure |2) sont tres proches des resultats pratiques. Pour 
la Chaine Segmentee (Figure |3), malgre les differences enfre les resulfafs reels ef les prediefions, nous 
pouvons foujours observer que les prediefions suivenf le comporfemenf des operations reelles. En effef, 
deux faefeurs peuvenf influencer forfemenf le resulfaf de la Chaine Segmenfee : d'abord le couf de 
manipulation des segmenfs de message, ef surfouf la propagation des refards d'une machine a foufe la 
chaine. Selon Timporfance de ces deux faefeurs, les resulfafs obfenus seronf plus ou moins eloignes du 
modele de communication. 

Finalemenf, la Figure IH compare direefemenf les sfrafegies d'Arbre Binomial ef Chaine Segmenfee (ef 
leurs prediefions) pour un groupe de 40 machines. Nous pouvons observer que dans ce cas Talgorifhme 
de Chaine Segmenfee esf plus performanf pour des grands messages, meme si les prediefions sonf moins 
precises que pour les aufres modeles. 

Dans le cas des pefifs messages, des refards imporfanfs sonf observes, specialemenf sur Efhernef. Les 
raisons de ces refards sonf defaillees dans plusieurs references, donf un article des developpeurs du 
LAM-MPI 1181 . Une enquefe plus profonde, menee par Loncaric 1191 . a indique que ces refards sonf dus 
a Timplanfafion des polifiques d'acquiffemenf TCP sur Linux, qui occasiorme le refard excepfiormel d'un 
message a chaque n messages fransmis (donf n depend de la version du noyau Linux). Ces refards sonf 
observes meme si Topfion sockef TCP_NODELAY esf aefivee, ef influencenf forfemenf la performance 
des Chaines Segmenfees a cause des failles de segmenfs ufilisees. 
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Broadcast — Arbre Binomial 



Broadcast - Arbre Binomial 



(a) Fast Ethernet 


(b) Myrinet 


Fig. 2 - Les performances reelles et predites pour 1'Arbre Binomial 


Broadcast - Chaine Segmentee 


Broadcast Results - Chain (Pipeline) 
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(a) Fast Ethernet 


(b) Myrinet 


Fig. 3 - Les performances reelles ef predifes pour la Chaine Segmenfee 




laille de message (octets) 


ladle de message (octets) 


(a) Fast Ethernet 


(b) Myrinet 


Fig. 4 - Comparaison enfre les resulfafs reels ef predifs pour un groupe de 40 machines 
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Strategic 

Modele de Communication 

Arbre Plat 

(P - 1 ) X g(m) + L 

Chaine 

E f=T^ g(j X m) + (P - 1) X L 

Arbre Binomial 



Tab. 2 - Modeles de Communication pour le Scatter 


4. Un vers Plusieurs Personnalise : Scatter 

L'operation Scatter, aussi appelee « broadcast personnalise », est une operation ou le processus racine 
detient P messages differents de taille m qui seront distribues egalement entre tous les P processus. Parce 
que le Scatter est Toperation symetrique de Toperation Gather, les modeles developpes pour le Scatter 
peuvent aussi representer le patron de communication « plusieurs vers un » de Toperation Gather. 

Dans le cas du Scatter, ou la racine detient un message different pour chaque processus, il est generale- 
ment considere que le meilleur algorithme pour les reseaux homogenes utilise les Arbres Plats 1141 . Par 
consequent, Timplantation en Arbre Plat est Tapproche par defaut des bibliotheques MPl. 

Ce choix est du au fait que des alternatives pour les Arbres Plats requierent toujours que des grands 
ensembles de messages soient transmis par des noeuds intermediaires. En prenant par exemple le cas 
des Arbres Binomiaux, le processus racine transmet a ses successeurs des paquets de messages qui con- 
tierment plusieurs messages. Si d'un cote cette strategie peut beneficier des envois paralleles, elle a des 
inconvenients car la transmission des paquets de messages necessite plus de temps qu'un seul mes¬ 
sage. Par consequent, Tefficacite des Arbres Binomiaux depend surtout de la vitesse de transmission 
des grands messages, et on observe alors Teffet du compromis entre les envois paralleles et la transmis¬ 
sion des grands messages sur le temps total de Toperation. 

Le Tableau 12 presente les modeles de communication developpes pour le Scatter. Pour ce travail, on a 
choisi de comparer les approches des Arbres Plats et des Arbres Binomiaux, plus performantes. Meme si 
les Arbres Binomiaux ont un surcout du a la transmission et manipulation des paquets de messages, la 
possibilite de faire des envois simultanes doit etre evaluee. D'ailleurs, le modele pour TArbre Binomial 
inclut la relation de compromis entre le cout de transmission et les envois paralleles, ce qui nous dorme 
la possibilite d'evaluer les modeles en fonction des caracteristiques du reseau. 

4.1. Resultats Pratiques 

Une comparaison entre les resultats pratiques et les predictions des modeles est presentee dans les Fig¬ 
ures |2et|2 Nous pouvons observer que les predictions des modeles sont assez proches des resultats 
pratiques. Les differences observees dans le cas des Arbres Binomiaux sonf plufof dues au couf de ma¬ 
nipulation des paquefs de messages (exfracfion, selection, repaquefage), qui n'esf pas represenfe par le 
modele de performance (pLogP). 

A cause des caracferisfiques de nofre reseau, on observe que Tapproche des Arbres Binomiaux esf 
frequemmenf plus efficace que Tapproche des Arbres Plafs. Plus exacfemenf, la simplicife du modele 
Arbre Plaf esf supplanfee par la capacife de reparfir la charge des fransmissions enfre plusieurs noeuds. 
Ce resulfaf s'avere ties ufile pour Taugmenfafion des performances de Toperafion Scatter. 

Lorsque le modele en Arbre Plaf esf limife par le femps necessaire a la fransmission des messages suc- 
cessifs (le gap), sa performance esf direcfemenf liee au nombre de processus. En revanche, le couf du 
modele en Arbre Binomial augmenfe de fa^on logarifhmique {\l 0 g 2 P]), ce qui offre des performances 
ties avanfageuses aux communicafions avec un nombre de noeuds legeremenf inferieur a 2^ pour a; S N. 
Neanmoins, la variation des performances du modele en Arbre Binomial selon le nombre de proces¬ 
sus encourage la comparaison prealable des modeles de performance, de maniere a choisir Talgorifhme 
qui s'adapfe le mieux a chaque ensemble de paramefres (faille de message, nombre de noeuds), comme 
illusfre la Figure|2 
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Scatter - Arbre Binomial 


Scatter — Arbre Binomial 



temps de completion (s) 



(a) Fast Ethernet 


(b) Myrinet 


Fig. 5 - Performances reelles et predites pour le Scatter en Arbre Binomial 


Scatter - Arbre Plat 


Scatter - Arbre Plat 



temps de completion (s) 



(a) Fast Ethernet 


(b) Myrinet 


Fig. 6 - Performances reelles ef predifes pour le Scatter en Arbre Plaf 




(a) Fast Ethernet 


(b) Myrinet 


Fig. 7 - Comparaison enfre les resulfafs reels ef predifs pour des messages de IMo 
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AlltoAll — Comparaison enlre deux approches d'implantation 


AlltoAU — Comparaiso 


re deux approches d' implantation 


temps de compledon (s) 


Echanee Direct - 




(a) Fast Ethernet 


(b) Myrinet 


Fig. 8 - Comparaison entre les approches Echange Direct et Echange Direct Optimise 


5. Plusieurs vers Plusieurs : All to All 

Un des plus importants patrons de communication collective pour des applications scientifiques est 
I'echange total |^, ou les algorithmes paralleles altement des periodes de calcul avec des periodes 
d'echange de dormees entre les processus. Pour cela, une des operations plus repandues est le All-to-All, 
qui permet la transposition des dormees appartenant a un groupe de processus. Dans le cas de I'opera- 
tion All-to-All, chaque processus detient mx P unites de dormees qui seront distribuees egalement entre 
les P processus. 

Plusieurs travaux visent I'optimisation du All-to-All et sa variante All-to-All-v, qui permet I'envoi des 
messages avec des tailles differentes pour chaque processus. Cependant, la plupart des propositions sont 
adaptees a des structures d'intercormexion tres specifiques, comme dans le cas des topologies en grille, 
tores et hypercubes j|6|. Des solutions generates, comme celles implementees sur plusieurs distributions 
MPI, considerent que chaque processus ouvre une communication directe avec les autres processus. 
L'approche la plus simple d'implantation de All-to-All, que I'on appellera Echange Direct, considere que 
chaque processus communique directement avec les autres, et que tous les appels d'envois et de re¬ 
ceptions sont inities simultanement. Un exemple de l'approche Echange Direct est I'implantation de 
MPI_Alltoall de LAM version 6.5.2 IT^ . Du a ses caracteristiques, cet algorithme peut avoir des prob- 
lemes de surcharge du recepteur, car les processus suivent le meme ordre d'envoi, surchargeant un seul 
processus recepteur a chaque tour. A cause de cela, une optimisation simple consiste en faire la rotation 
des listes de destinataires, comme le font deja les implantations MPI LAM 7.0.4 flTl et MPICH 1.2.5 
l23l . Malgre cette optimisation, des tests pratiques n'ont pas demontre une grande influence sur le re- 
sulfaf, comme demonfre la Figure |8l Nos experiences suggerenf que la surcharge d'un recepfeur esf un 
probleme mineur en comparaison avec I'occurrence de la congesfion reseau. En fail, I'analyse faife par 
Grove Q indiquaif deja que les ralenfissemenfs observes sont plutot dus a des pertes de paquets et leurs 
timeouts de retransmission TCP/IP causes par la surcharge du reseau. 

D'ailleurs, on observe sur la Figure|8ta) des grandes variations de performance pour les messages pefifs. 
Ces variafions, observees seulement sur le reseau Fasf Efhernef, sont probablement dues aux problemes 
de retard de petits messages deja discutes en Section lTll Le fait que ces retards sont plus importants que 
ceux observes dans les cas de I'operation de Broadcast reflete simplement le surcout du patron « plusieurs 
vers plusieurs ». 

Par consequent, la difficulte des modeles de communication pour le All-to-All reside dans la prise en 
compte des specificites du patron de communication « plusieurs vers plusieurs ». Des modeles theoriques 
comme ceux presentes par j6l sont pour la plupart des simples extensions du modele Scatter, et ne tien- 
nent pas compte de I'influence de la congestion reseau, par exemple. 

En fait, la plupart des travaux de modelisation de performance ufilisenf des resulfafs des communica- 
fions bipoinfs pour absfraire la performance des communications collectives. Tam et Wang ESI ESI ont 
demontre, toutefois, que le temps d'execution des operations de communication collective, specialement 
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le Gather et le All-to-All, est fortement domine par la congestion du reseau et par la perte de paquets de 
messages, ce qui rend tres difficile la quanfificafion de ces effefs. 

Pour sa fhese de doctoral. Grove m a elabore une elude Ires inferessanfe a propos de modeles de perfor¬ 
mance. D'une maniere concise, son elude a presenfe une vision riche du developpemenf el de I'evolufion 
des modeles de performance. Ainsi, il demonfre que seulemenf ces demieres annees la congestion esf 
devenue une preoccupation reelle, el que I'influence de la congestion resfe encore un des grands defis 
des concepfeurs de modeles. 

Un des premiers modeles qui considere les effefs de la congestion des ressources fuf presenfe par Adve 
fn . Ce modele consideraif que le femps fofal d'execufion efaif reparfi enfre quafre composanfs : 


T 


f, 


computation 


+ t 


communication 


+ 


resource 


— contention ^synchronisatio 


Malgre sa simplicife concepfuelle, ce modele n'esf pas frivial a cause de la nafure non-deferminisfe de 
la congestion, ef surfouf de la difficulfe a deferminer les refards moyens de synchronisation. 

Meme si la congestion des ressources esf difficile a modeliser, Clemenf ef Steed Q onf infroduif un 
moyen simple pour exprimer la congestion sur des reseaux parfages, comme par exemple I'Efhernef 
non commute, qui consisfe d'un facfeur de congestion 7 qui augmenfe un modele de communication 
lineaire T : 


T = l + 


Irf 

W 


ou I esf la lafence du lien, b esf la faille du message, W esf le debif du lien ef 7 represenfe le nombre de 
processus. Ce modele augmenfe la precision des predictions avec un couf minimum, mais pour cela 
il fauf encore que fous les processus communiquenf simulfanemenf, ce qui n'esf pas vrai que pour 
quelques pafrons de communicafion. 

Ce resulfaf esf forfemenf lie au fravail de Labarfa, Girona ef al. Ha, qui fenfe d'approcher le comporfe- 
menf de la congestion reseau au considerer que s'il yam messages a fransmeffre, ef seulemenf b canaux 
disponibles, les messages sonf serialises en vagues de communicafion. 

Cerfains modeles de performance orienfes a la congestion sonf apparus recemmenf. LoGPC 1221 esf 
une exfension du modele LogP qui defermine I'influence de la congestion a fravers I'analyse des filles 
d'affenfe sur un reseau de n cubes de dimension k chacun. Ceffe analyse rend fres difficile I'ufilisafion 
pratique du modele. Une aufre approche, plus pratique, esf celle de Tam l25l . qui considere la congestion 
comme parf infegranfe de la lafence. Par consequenf, ce modele utilise des valeurs de lafence qui varienf 
selon la faille du message. Si ceffe approche esf beaucoup plus simple a implemenfer, le surcouf du 
a Tobfenfion des valeurs de lafence pour plusieurs failles de messages devienf frop eleve quand on 
considere des reseaux de longue disfance. 

Pour ce fravail nous adopfons une approche similaire a Clemenf ef Steed j7|, ou la congestion esf suff- 
isammenf lineaire pour efre modelisee. Nofre approche consisfe a idenfifier le comporfemenf de Topera- 
fion All-to-All par rapporf a des performances fheoriques efablies a parfir du modele de communicafion 
1-port. Nofre hypofhese esf que la congestion depend plufof des caracferisfiques physiques du reseau 
(carfes, liens, commufafeurs, ...), de fa^on que le rapporf enfre le resulfaf prafique ef les performances 
fheoriques devienf une « signafure » de ce reseau. Une fois idenfifie ce rapporf, nous pouvons Tufiliser 
pour predire la performance d'aufres execufions effecfuees sur le meme reseau. 

Dans le cas des communications du t 5 q 5 e All-to-All, les valeurs de performance fheorique sonf obfenues 
a parfir de Texfension du modele Scatter, mais ceffe fois-ci fenanf compfe des caracferisfiques ef resfric- 
fions du pafron « plusieurs vers plusieurs », en parficulier la capacife des noeuds a recouvrir Tenvoi ef 
la reception des messages. 

En fail, selon le modele de communicafion 1-port, un processus peuf envoyer ef recevoir des messages 
simulfanemenf. Cependanf, des resfricfions dues a la congestion peuvenf forcer les machines a serialiser 
leurs envois ef recepfions. Dans ce cas, en reprenanf les notions de pLogP, nous efudions le fail que meme 
si deux messages ne peuvenf pas efre envoyes consecufivemenf en moins de g unites de femps a fravers 
le meme lien, il suffif de os unifes de femps pour envoyer un message (plus specifiquemenf, pour delivrer 
le message a la carte reseau) ef or pour le recevoir. 

Par consequenf, la limife inferieure esf represenfee par la capacife d'envoyer ef recevoir des messages 
simulfanemenf. Pour la limife superieure fheorique, les noeuds serialisenf leurs envois ef recepfions. Il 
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Modele de Communication 

Limite Superieure 

(P — 1) X os(m) + (P — 1) X or{m) + L 

Limite Inferieure 

(P - 1) X g(m) + L 


Tab. 3 - Limites de communication pour Toperation All-to-All 


AllioAll - 24 machines 




(a) Fast Ethernet 


(b) Myrinet 


Fig. 9 - Performance de Talgorithme All-to-All compare aux limites theoriques et aux predictions du 
modele, pour 24 machines 


est possible qui la performance reelle depasse la limite superieure, car existent d'autres facteurs qui peu- 
vent influencer les communications. Toutefois, Tobservation des limites theoriques permet la separation 
des facteurs lies au transit des messages et les facteurs dus au materiel physique, ce qui rend possible la 
definition de cette « signature » du reseau. Les formules pour les limites theoriques sont presentees sur 
le Tableau|3l 

5.1. Resultats Pratiques 

Pour illustrer notre approche, nous presentons en Figurel^les resultats des experiences avec Talgorithme 
Echange Direct et les limites theoriques pour 24 machines. La premiere observation importante est Tecart 
entre le resultat reel et la limite inferieure (base sur le modele Scatter). Cette difference non negligeable 
est deja due aux effets de la congestion du reseau. 

L'observation de ces valeurs permet Tapproximation des resultats reels a havers une relation de conges¬ 
tion etablie entre les limites theoriques. Cette relation de congestion 7 est constante et depend unique- 
ment des caracteristiques du reseau, dont les limites inferieures et superieures (definies dans le Tableau 
13 dependent du nombre de processus. Ainsi, nous proposons pour cette relation la formule suivante : 

T = Liminf erieure -\- {LimSuperieure — Liminferieure) x 7 

Des relations de congestion qui permettent une borme approximation des resultats reels presentes en 
Figure 13 sont 7 = | pour le reseau Fast Ethernet et 7 = | pour le reseau Myrinet. L'application de 
ce facteur 7 sur d'autres experiences ou on varie le nombre de processus s'est montree assez fiable, 
surtout pour des grands messages. La prediction de performance pour les petits messages reste encore 
sujette a des facteurs difficiles a controler, comme par exemple les retards dus a la S 5 mchronisation 
des processus, la performance du reseau ou les problemes lies a Timplantation du protocole TCP. Les 
predictions obtenues avec notre modele de performance sont presentees en FigurelTol 

6. Conclusions et Travaux Futurs 

Des travaux recents visent Toptimisation des operations de communication collective dans les environ- 
nements de type grille de calcul. La solution la plus repandue est la separation des communications in¬ 
ternes et extemes a chaque grappe, comme le font les systemes ECO l20l , MagPIe IT3I14I . et LAM-MPI 
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Prediclions pour le AlltoAll 


Predictions pour le AlltoAll 




(a) Fast Ethernet (b) Myrinet 

Fig. 10 - Predictions de performance pour I'algorithme All-to-All 


vm, mais cela n'exclut pas le decoupage des communications en plusieurs couches, pratique efficace 
demontree par Karonis et al. 1101 . Dans les deux cas, la prediction des performances est un facteur es- 
sentiel, soit pour le reglage fin des parametres de communication, soit pour le calcul de la distribution 
et de la hierarchie des communications. Pour cela, il est tres important d'avoir des modeles precis des 
communications collectives, lesquels seront utilises pour predire ces performances. 

Cet article presente notre experience dans le domaine de la modelisation des operations de communica¬ 
tion collective. L'efficacite de ces modeles est analysee a travers la comparaison entre les predictions de 
performance et les resultats reels obtenus pour trois importants patrons de communication collective : 
« un vers plusieurs », « un vers plusieurs personnalise » et « plusieurs vers plusieurs ». Pour cela, les 
experiences ont utilise deux architectures reseaux differentes. Fast Ethernet et Myrinet. Nous demon- 
trons que les modeles de communication sont suffisamment precis pour predire les performances de 
ces operations collectives sur les deux environnements reseaux, et aussi pour permettre la selection des 
techniques le plus adaptees a chaque situation. 

Une contribution importante de cet article est I'effort de modeliser les operations de type « plusieurs 
vers plusieurs ». En general, ces operations sont sujettes a des retards importants dus aux effets de la 
congestion du reseau. Dans notre approche, un facteur de congestion lineaire 7 , obtenu a partir des 
modeles de performance theoriques, est utilise pour predire les performances de ce t 5 rpe d'operation 
collective avec une bonne precision et surtout un cout tres bas. Meme si notre modele de communica¬ 
tion « plusieurs vers plusieurs » ne couvre pas tous les effets de congestion qui peuvent influencer les 
resultats reels, en particulier dans le cas des petits messages, il foumit des indices qui contribuent a la 
recherche des modeles plus precis. 

Cet article s'encadre dans le contexte de notre recherche sur des communications collectives adaptees 
aux environnements de grille. Nous sommes particulierement interesses a la construction automatique 
des communications collectives a multiples niveaux, dont la modelisation des performances, la decou- 
verte du reseau et la construction des hierarchies de communication sont des aspects essentiels. 
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